智能论文笔记

Zero-Shot Cross-Lingual Machine Reading Comprehension via Inter-Sentence Dependency Graph

Liyan Xu , Xuchao Zhang , Bo Zong , Yanchi Liu , Wei Cheng , Jingchao Ni , Haifeng Chen , Liang Zhao , Jinho D. Choi

分类：自然语言处理 | 机器学习

2021-12-01

我们通过纳入通用依赖性（UD）的句法特征来瞄准直接零射击设置中的跨语言机器阅读理解（MRC）的任务，以及我们使用的关键功能是每个句子中的语法关系。虽然以前的工作已经证明了有效的语法引导MRC模型，但我们建议采用句子际句法关系，除了基本的句子关系外，还可以进一步利用MRC任务的多句子输入中的句法依赖性。在我们的方法中，我们构建了句子间依赖图（ISDG）连接依赖树以形成横跨句子的全局句法关系。然后，我们提出了编码全局依赖关系图的ISDG编码器，通过明确地通过一个跳和多跳依赖性路径来解决句子间关系。三个多语言MRC数据集（XQUAD，MLQA，Tydiqa-Goldp）的实验表明，我们仅对英语培训的编码器能够在涵盖8种语言的所有14个测试集中提高零射性能，最高可达3.8 F1 / 5.2 EM平均改善，以及某些语言的5.2 F1 / 11.2 em。进一步的分析表明，改进可以归因于跨语言上一致的句法路径上的注意力。

translated by 谷歌翻译

Geometric Pose Affordance: 3D Human Pose with Scene Constraints

Zhe Wang , Liyan Chen , Shaurya Rathore , Daeyun Shin , Charless Fowlkes

分类：计算机视觉

2019-05-19

尽管最近的进步，但是，尽管最近的进展，但是从单个图像中的人类姿势的全3D估计仍然是一个具有挑战性的任务。在本文中，我们探讨了关于场景几何体的强先前信息的假设可用于提高姿态估计精度。为了主弱地解决这个问题，我们已经组装了一种新的$ \ textbf {几何姿势提供} $ DataSet，包括与各种丰富的3D环境交互的人员的多视图图像。我们利用商业运动捕获系统来收集场景本身的姿势和构造精确的几何3D CAD模型的金标估计。要将对现有框架的现有框架注入图像的现有框架，我们介绍了一种新颖的，基于视图的场景几何形状，一个$ \ textbf {多层深度图} $，它采用了多次射线跟踪到简明地编码沿着每种相机视图光线方向的多个表面入口和退出点。我们提出了两种不同的机制，用于集成多层深度信息姿势估计：输入作为升降2D姿势的编码光线特征，其次是促进学习模型以支持几何一致姿态估计的可差异损失。我们通过实验展示这些技术可以提高3D姿势估计的准确性，特别是在遮挡和复杂场景几何形状的存在中。

translated by 谷歌翻译

Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search

Shuanglin Yan , Hao Tang , Liyan Zhang , Jinhui Tang

分类：计算机视觉

2022-08-30

基于文本的人搜索是一项具有挑战性的任务，旨在搜索具有查询文本描述的图像库中具有相同身份的行人图像。近年来，基于文本的人搜索取得了良好的进步，而最先进的方法通过学习图像和文本之间的本地细粒度对应来实现出色的性能。但是，现有方法通过手工制作的拆分或外部工具从图像和文本中明确提取图像零件和文本短语，然后进行复杂的跨模式本地匹配。此外，现有方法很少考虑由图像特定信息引起的方式之间的信息不平等问题。在本文中，我们提出了一个有效的联合信息和语义对齐网络（ISANET），用于基于文本的人搜索。具体而言，我们首先设计一个特定图像的信息抑制模块，该模块分别通过关系引导定位和通道注意过滤抑制图像背景和环境因素。该设计可以有效地减轻信息不平等问题，并实现图像和文本之间的信息对齐。其次，我们建议一个隐性的本地对齐模块，以将图像和文本功能适应一组模态共享的语义主题中心，并隐式地学习图像和文本之间的本地细粒度对应关系，而无需其他监督信息和复杂的跨模式互动。此外，引入了全球一致性作为当地观点的补充。在多个数据库上进行的广泛实验证明了所提出的ISANET的有效性和优势。

translated by 谷歌翻译

HTML版本

OLLIE: Derivation-based Tensor Program Optimizer

Liyan Zheng , Haojie Wang , Jidong Zhai , Muyan Hu , Zixuan Ma , Tuowei Wang , Shizhi Tang , Lei Xie , Kezhao Huang , Zhihao Jia

分类：机器学习

2022-08-02

由于它们在现实世界中的广泛采用，提高深神经网络（DNN）的运行时性能至关重要。现有的优化DNN的张量代数表达的方法仅考虑由固定的预定义运算符表示的表达式，在一般表达式之间缺少可能的优化机会。我们提出了Ollie，这是第一个基于衍生的张量程序优化器。 Ollie通过利用一般张量代数表达式之间的转换来优化张量程序，从而实现了一个更大的表达搜索空间，其中包括由先前工作作为特殊情况支持的搜索空间。 Ollie使用基于混合衍生的优化器，该优化器有效地结合了探索性和指导性推导，以快速发现高度优化的表达式。对七个DNN的评估表明，Ollie可以在A100 GPU上胜过2.73 $ \ times $（平均为1.46美元$ \ times $），在V100上最多可超过2.68 $ \ times $（1.51 $ \ times $） GPU分别。

translated by 谷歌翻译

Generalizing to Unseen Domains with Wasserstein Distributional Robustness under Limited Source Knowledge

Jingge Wang , Liyan Xie , Yao Xie , Shao-Lun Huang , Yang Li

分类：机器学习 | 计算机视觉

2022-07-11

域的概括旨在学习一个通用模型，该模型在看不见的目标域上表现良好，并结合了来自多个源域的知识。在这项研究中，我们考虑了以下场景，在不同类别跨领域的条件分布之间发生不同的领域变化。当源域中的标记样品受到限制时，现有方法不足以鲁棒。为了解决这个问题，我们提出了一个新型的域泛化框架，称为Wasserstein分布在鲁棒域的概括（WDRDG），灵感来自分布稳健优化的概念。我们鼓励对特定于类的Wasserstein不确定性集中有条件分布的鲁棒性，并优化分类器在这些不确定性集上的最差性能。我们进一步开发了一个测试时间适应模块，利用最佳运输来量化未见目标域和源域之间的关系，以使目标数据适应性推断。旋转MNIST，PACS和VLCS数据集的实验表明，我们的方法可以有效地平衡挑战性概括场景中的鲁棒性和可区分性。

translated by 谷歌翻译

Exploring Contextual Relationships for Cervical Abnormal Cell Detection

Yixiong Liang , Shuo Feng , Qing Liu , Hulin Kuang , Liyan Liao , Yun Du , Nanying Che , Jianfeng Liu , Jianxin Wang

分类：计算机视觉

2022-07-11

宫颈异常细胞检测是一项具有挑战性的任务，因为异常细胞和正常细胞之间的形态差异通常是微妙的。为了确定宫颈细胞是正常还是异常，细胞病理学家总是将周围细胞作为参考，并进行仔细比较以鉴定其异常。为了模仿这些临床行为，我们建议探索上下文关系，以提高宫颈异常细胞检测的性能。具体而言，利用细胞和细胞到全球图像之间的上下文关系，以增强每个感兴趣区域（ROI）建议的特征。因此，开发了两个模块，称为ROI关系注意模块（RRAM）和全球ROI注意模块（GRAM），还研究了它们的组合策略。我们通过使用特征金字塔网络（FPN）使用单头或双头更快的R-CNN来设置强基础，并将我们的RRAM和革兰氏集整合到它们中以验证提出的模块的有效性。由40,000个细胞学图像组成的大宫颈细胞检测数据集进行的实验表明，RRAM和GRAM的引入都比基线方法获得了更好的平均精度（AP）。此外，当级联RRAM和GRAM时，我们的方法优于最先进的方法（SOTA）方法。此外，我们还显示了提出的功能增强方案可以促进图像级别和涂片级别的分类。代码和训练有素的模型可在https://github.com/cviu-csu/cr4cacd上公开获得。

translated by 谷歌翻译

Improving Downstream Task Performance by Treating Numbers as Entities

Dhanasekar Sundararaman , Vivek Subramanian , Guoyin Wang , Liyan Xu , Lawrence Carin

分类：自然语言处理 | 机器学习

2022-05-07

数字是文本的重要组成部分，就像任何其他单词代币一样，自然语言处理（NLP）模型是构建和部署的。尽管通常在大多数NLP任务中没有明确考虑数字，但NLP模型已经显示出基本数量的算术。在这项工作中，我们尝试利用最先进的NLP模型的潜力，并转移其在相关任务中提高性能的能力。我们建议将数字分类为实体的分类有助于NLP模型在多个任务上表现良好，包括手工制作的填充（FITB）任务以及使用联合嵌入式的问题回答，表现优于Bert和Roberta基线分类。

translated by 谷歌翻译

Prior Knowledge Enhances Radiology Report Generation

Song Wang , Liyan Tang , Mingquan Lin , George Shih , Ying Ding , Yifan Peng

分类：自然语言处理 | 人工智能

2022-01-11

放射学报告生成旨在产生计算机辅助诊断，以缓解放射科医生的工作量，并最近引起了越来越长的关注。然而，之前的深度学习方法倾向于忽视医学发现之间的相互影响，这可以是限制所生成的报告质量的瓶颈。在这项工作中，我们建议在信息知识图表中提出和代表医学发现的协会，并将此事先知识纳入放射学报告，以帮助提高所生成的报告质量。实验结果证明了我们在IU X射线数据集上的提出方法的优越性，Rouge-L为0.384 $ \ PM $ 0.007和0.340 $ \ PM $ 0.011。与以前的作品相比，我们的模型平均实现了1.6％（苹果酒和Rouge-L的增加2.0％和1.5％）。实验表明，先验知识可以为准确的放射学报告生成表现收益。我们将在https://github.com/bionlplab/report_generation_amia2022中公开公开可用的代码。

translated by 谷歌翻译

Semantically Contrastive Learning for Low-light Image Enhancement

Dong Liang , Ling Li , Mingqiang Wei , Shuo Yang , Liyan Zhang , Wenhan Yang , Yun Du , Huiyu Zhou

分类：计算机视觉

2021-12-13

由于单个RGB图像的不利低对比度和弱可见性问题，低光图像增强（LLE）仍然具有挑战性。在本文中，我们回应了有趣的学习相关问题 - 如果利用可访问的既可接近的过分配对/曝光过度的图像和高级别的语义指导，可以提高尖端LLE模型的性能？在这里，我们提出了一种有效的语义对比的学习范例（即SCL-LLE）。除了现有的LLE智慧之外，它将图像增强任务施放为多任务联合学习，其中LLE被转换为对比学习，语义亮度一致性的三个约束，同时确保曝光，纹理和颜色一致性。 SCL-LLE允许LLE模型从未配对的阳性（常灯）/否定（过度/曝光），并使其与场景语义进行互动以正规化图像增强网络，但高级语义知识的相互作用并且在以前的方法中很少地研究了低级信号。培训易于获得的开放数据，广泛的实验表明，我们的方法超越了六个独立的交叉场景数据集的最先进的LLE模型。此外，讨论了SCL-LLE在极暗条件下有益于下游语义分割的潜力。源代码：https://github.com/linglix/sclle。

translated by 谷歌翻译

Graph-based Solutions with Residuals for Intrusion Detection: the Modified E-GraphSAGE and E-ResGAT Algorithms

Liyan Chang , Paula Branco

分类：机器学习

2021-11-26

大量越来越复杂的网络威胁是吸引了对网络安全的关注，许多挑战仍未得到解决。即，对于入侵检测，需要更强大，有效，能够使用更多信息的新算法。此外，入侵检测任务面临着与正常和恶意流量之间的极端类别不平衡相关的严重挑战。最近，图形 - 神经网络（GNN）实现了最先进的性能，以在网络安全任务中模拟网络拓扑。但是，使用GNN只有少数作品来解决入侵检测问题。此外，还探索了其他有前途的途径，例如应用注意机制。本文介绍了两种基于图形的入侵检测解决方案，改进的电子图形和电子ResgAtthorithms分别依赖于已建立的Graphsage和Cablent Network网络（GAT）。关键的想法是将剩余学习集成到利用可用图信息的GNN中。剩余连接作为处理高级不平衡的策略，旨在保留原始信息并提高少数群体课程的表现。最近四个入侵检测数据集的广泛实验评估显示了我们方法的优异性能，特别是在预测少数阶级时。

translated by 谷歌翻译